作者:涂凌萱_TLX_9s7_140 | 来源:互联网 | 2023-09-09 22:19
CCASparkandHadoop考试编码为CCA-175,就是2016年新出的开发者考试。众多小伙伴可能因试题是纯操作题的缘故,一直都没上战场。今儿有个考生这门认证考试竟然满分通
CCA Spark and Hadoop 考试编码为CCA-175,就是2016年新出的开发者考试。众多小伙伴可能因试题是纯操作题的缘故,一直都没上战场。今儿有个考生这门认证考试竟然满分通过,觉得记录下这历史性的时刻甚是必要:一千多字的考试心得啊!要备战的筒子们,赶紧吞了这袋血条吧!
一、考试内容
总计有10题,全部为实践操作题
1> 前五题分别为(sqoop,hive)
1).sqoop-import
2).sqoop-export,
3).hive创建表,并且将已经存在于hdfs上的表导入到新建表中
4).hive创建avro类型的表
5).hive创建一个分区表,并且导入数据
2> 6-9题为spark的python 和scala解析数据题目,考试模式为哪种原始的代码题空题目,不需要考试者从头到尾的完成所有代码,只需要填充那些缺失的代码部分,基本内容为加载hdfs上的数据,解析数据,过滤数据,排序,join数据,将处理后的数据存储到 hdfs上
3> 第10题,一个排错题,提供一个有错误的脚步去调试让脚步能够正常运行,
我考的这题是一个hive的avro表,查询时报错,修改该表的schame让查询能够正常运行(仅供大家参考)
4> 小结:从考试内容来看基本都是基础知识的考察,没有考察那些技巧性的内容和比较深奥的、偏门的知识(基本将培训的习题做做熟练基本能够通过考试)
二、考试环境
可以用一个“烂”字来形容
1> 考试环境可以用一个“烂”子来形容,字体小的需要贴着屏幕看,鼠标移动有较长的延迟,执行的速度一般。
2> 考试的环境是一远程的linux环境,全部英文,没有中文。
3> 考试中可以查看hive,sqoop等相关技术文档,在页面中已经明确的给出链接地址,直接点击即可。
4> 操作时”open in Terminal” 即可。
三、备考心得
将培训中的习题做熟练
1> 考试中未涉及 impala 和flume的内容。
2> 熟练掌握sqoop的导入导出,指定分隔符,指定文件存储类型。
3> 熟练掌握hive的ddl,创建数据库,创建外部表,创建表时指定分隔符,指定文件存储格式,指定文件位置,创建分区表,向分区表中导入数据。
4> 熟练掌握scala,python的基本语法。
5> 熟练掌握spark的rdd的相关基本操作,map,filter,join.mapValues,keyBy,sortByKey,textFile,saveAsTextFile等操作。
6> 熟练掌握count,collect,take等操作。
7> 能够熟练的解析文本,难度以习题难度为准,我初始准备时考试准备的难度偏难(解析复杂的文本,解析复杂的xml,解析复杂的json,而且去背各种import类路径和工具方法)但是从考试内容来看完全没有必要。
8> 考试时请做好时间安排,两个小时的时间很紧张,多半不够用,一旦在考试中出现各种exception多半会崩溃。
四、独门秘笈
节省考试时间的诀窍
1> 不建议打开太多的”open in Terminal”,最多不要超过3个,太多切换来切换去会晕。
2> 由于为实际操作题目,执行过的代码基本不能在找回,建议使用系统中自带的”Emacs”编辑器,编辑代码,存储代码,在此编辑器中编写好代码后在复制到命令行中运行,如果运行出错可以在进行修改。(建议在练习时熟练掌握emacs的常规使用方式,特别是“复制”和“粘帖”操作)
3> 使用”emacs”需要设置字体,系统的默认字体肉眼基本无法辨识,建议修改编辑器的字体大小
4> 命令行的 字体也可以根据需要进行设置(我未设置,直接使用默认设置)
5> 在考试过程中要充分的使用复制和粘帖操作(如相关的路径信息,帐号信息,数据库表名,字段名称),以免自己的输入产生错误导致运行出错,而且可以节省。
五、考试成绩
考试完毕后大概30分钟后会收到邮件告知考试成绩
我考了两次:第一次由于环境的各种不熟悉和考试模式的不熟悉只做成功了5题,作为第5题时已经花去1个半小时,多半由于自己的输入失误导致出现各种错误,又由于怕代码丢失打开太多的窗口,所以在这里建议大家熟练使用emas编辑器,使用复制粘贴操作,不要打开太多的窗口。
第二次我吸取的第一次的教训大大提高了考试速度10题全部做完,顺利通过了考试。
以上内容为一点小小经验仅供参考,祝大家考试通过!